Introdução à Ciência dos Dados - Aula 1

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

3 de junho de 2023

The Data Deluge

The Economist: 2010

Harvard Business Review: 2012

The New York Times: 2009

The History of Data Economy

Informações sobre o Curso

Ciência dos Dados

Objetivo Geral

  • Capacitar os mestrandos na aplicação de modelos econométricos a problemas de áreas de finanças.

  • O conteúdo principal do curso concentra-se na aquisição e estruturação de dados, análise exploratória de dados, visualizaçãode dados, modelagem econométrica e comunicação eficaz de resultados, utilizando-se a linguagem R.

  • Trata-se de um curso do tipo “hands-on”.

  • O objetivo do curso é levar os mestrandos do zero à capacidade de trabalhar em um projeto econométrico-computacional reproduzível usando a linguagem R, analisando um conjunto de dados e respondendo a questões de interesse.

Objetivos Especificos

  1. Tornar o mestrando em um usuário da linguagem R para a importação, organização, visualização e modelagem econométrica de dados;

  2. Introduzir o mestrando na aplicação de modelos econométricos na área de finanças;

  3. Tornar o mestrando capacitado para o desenvolvimento de pesquisas empíricas reproduzíveis na área de finanças;

Pré-Requisitos

  • Não há pré-requisitos formais.

  • Será importante rever conceitos matemáticos, de estatística básica conforme necessário.

  • É importante que os mestrandos se envolvam no domínio de conceitos básicos ativamente.

  • Algum letramento computacional também será importante.

Política de Notas

Os pontos referentes à avaliação foram distribuídos da seguinte forma:

  1. Lista de Exercícios 1 = 10 pontos
  2. Lista de Exercícios 2 = 10 pontos
  3. Lista de Exercícios 3 = 10 pontos
  4. Exame 1 = 35 pontos
  5. Exame 2 = 35 pontos
  6. Sendo que para aprovação é necessário a obtenção de pelo menos 60 pontos.

Planejamento do Curso

  • Espero que vocês estudem as leituras indicadas, preferencialmente antes das aulas.

  • Isso não significa apenas ler superficialmente, mas envolver-se praticamente e criticamente com o estudo

  • Busquem fazer todos os exercícios e utilizar efetivamente a linguagem.

Referência Básica

Referência Básica em 2021

WICKHAM (2023): Versão digital (2 edição) gratuita disponível em: https://r4ds.hadley.nz

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Import – Importar os dados.

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Tidy – Estruturar seus dados em um formato consistente para a análise.

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Transform – Sumarizar as observações de interesse e criar novas variáveis a partir das já existentes

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Visualize – Representar visualmente seus dados

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Model - Usar seus dados para responder à questões de interesse.

O Modelo de Projeto de Ciência dos Dados

– Wickham & Grolemund, Ch. 1.1

   

Communicate - Transmitir suas descobertas para outras pessoas.

O Modelo de Projeto de Ciência dos Dados

“You don’t need to be an expert programmer to be a data scientist, but becoming a better programmer allows you to automate common tasks, and solve new problems with greater ease.”

– Wickham & Grolemund, Ch. 1.1

A Regra 80/20

“You can tackle about 80% of every project using the tools that you’ll learn in this book, but you’ll need other tools to tackle the remaining 20%.”

– Wickham & Grolemund, Ch. 1.1

   

Esses 20% restantes variam de acordo com o projeto, com os dados que você está explorando e com as perguntas que você espera responder.

Uma Sábia Palavra dos Autores

“While it’s tempting to skip the exercises, there’s no better way to learn than practicing on real problems.”

   

É sério … você aprenderá mais se pelo menos tentar resolvê-los por conta própria.

Teve problemas? Você não está sozinho

Confuso por uma mensagem de erro?

Pesquise sobre a mensagem de erro no Google

 

Outros lugares para buscar ajuda:

Softwares Básico para o curso

Para instalar o R 4.2.2 basta

  1. Acesse https://cloud.r-project.org/

  2. Selecione o sistema operacional, clicando em R for Windows por exemplo.

  3. Na página seguinte clique em base

  4. Clique em Download R for Windows 4.2.2

  5. Feito o download basta ir clicando em próximo/next até a instalação ser concluída.

Softwares Básico para o curso

Para instalar o RStudio versão 2022.02.0+443

  1. Acesse https://posit.co/products/open-source/rstudio/

  2. No canto superior direito da página, clique em DOWNLOAD RSTUDIO. Role a página para baixo até chegar à opção RStudio Desktop Free, logo abaixo, clique na opção Download

  3. Na página seguinte clique no botão em azul DOWNLOAD RSTUDIO FOR WINDOWS.

  4. Feito o download basta ir clicando em próximo/next até a instalação ser concluída.

Econometria Financeira

Natureza e Objetivo da Econometria

  • O que é Econometria?

    • O significado literal é “medição em economia
  • Definição de Econometria Financeira:

    • A aplicação de técnicas estatísticas e matemáticas a problemas em finanças.

Problemas que podem ser resolvidos por um econometrista

  • Testar se os mercados financeiros são eficientes em termos de informação.

  • Testar se CAPM ou APT representam modelos superiores para a determinação de retornos sobre ativos de risco.

  • Medir e prever a volatilidade dos retornos dos títulos.

  • Explicar os determinantes dos ratings de crédito de títulos atribuídos pelas agências de rating.

  • Modelagem de relações de longo prazo entre preços e taxas de câmbio.

  • Determinar a razão ótima de hedge para uma posição à vista em petróleo.

Problemas que podem ser resolvidos por um econometrista

  • Testar regras técnicas de negociação para determinar a mais rentável.

  • Testar a hipótese de que os anúncios de lucros ou dividendos não têm efeito sobre os preços das ações.

  • Testar se os mercados spot ou futuros reagem mais rapidamente às notícias.

  • Previsão da correlação entre os retornos dos índices de ações de dois países.

Características Especiais de Dados Financeiros

  • Frequência & Quantidade de dados

    • Os preços do mercado de ações são medidos sempre que há uma negociação ou alguém publica uma nova cotação.
  • Qualidade

    • Os preços dos ativos registrados são geralmente aqueles em que a transação ocorreu. Não há possibilidade de erro de medição, mas os dados financeiros possuem muito “ruído”.

Passos Envolvidos na Elaboração de um Modelo Econométrico

Pontos Importanes na Leitura de Artigos da Literatura Financeira Acadêmica

  • O trabalho envolve o desenvolvimento de um modelo teórico ou é apenas uma técnica em busca de uma aplicação, ou um exercício de mineração de dados?

  • Os dados são de “boa qualidade”? São de uma fonte confiável? O tamanho da amostra é suficientemente grande para que a teoria assintótica seja utilizada?

  • As técnicas foram validamente aplicadas? Foram realizados testes de diagnóstico para violações de quaisquer suposições feitas na estimativa do modelo?

Pontos Importanes (cont.)

  • Os resultados foram interpretados de forma sensata? A força dos resultados é
    exagerada? Os resultados realmente abordam as questões colocadas pelos autores?

  • As conclusões tiradas são apropriadas em função dos resultados, ou a importância dos resultados do artigo foi exagerada?

A Linguagem R

o que é R?

  • É uma linguagem de programação, interpretada e livre

  • R é um dialeto da linguagem S

o que é R?

  • S é uma linguagem que foi desenvolvida por John Chambers e equipe no Bell Labs.

  • S foi iniciada em 1976 como uma linguagem para análise estatística originalmente implementada como um conjunto de bibliotecas Fortran.

  • Em 1988, a linguagem foi reescrita em C e começou a se parecer com o sistema que temos hoje (S3).

  • Versão 4 (S4) da linguagem S foi lançada em 1998 e é a versão que nós usamos hoje.

  • Em 1998, John Chambers ganhou o Association for Computing Machinery’s Software System Award pela linguagem S.

Filosofia da Linguagem S

Em Stages in the Evolution of S, John Chambers escreveu

Queríamos que os usuários fossem capazes de começar em um ambiente interativo, onde não pensassem conscientemente como programadores. Então, com suas necessidades tornando-se mais claras e sua sofisticação aumentando, eles deveriam ser capazes de tornarem-se gradualmente programadores, quando os aspectos da linguagem e do sistema tornariam-se mais importantes.

(tradução livre)

R: Histórico

  • 1991: R é criada na Nova Zelândia por Ross Ihaka e Robert Gentleman.

  • 1993: Primeiro anúnico do R ao Público.

  • 1995: Martin Machler convence Ross e Robert a usarem licença GNU para tornar o R um software Livre.

  • 1997: The R Core Group é criado. Este grupo controla o código fonte da linguagem.

  • 2000: A versão R 1.0.0 é lançada.

  • 2022: R version 4.1.3 é lançada.

R: criadores planejando dominar o Mundo

R: 06/01/2009 Mundo Dominado

Características da Linguagem R

  • Tem um conjunto abrangente de funcionalidades para:

    • Acesso a dados
    • Manipulação de dados
    • Análise/Modelagem
    • Comunicação de dados e análises
  • Tem ótimos ambientes de desenvolvimento de integrado

  • Tem um ecossistema incrível de desenvolvedores

  • Os pacotes/bibliotecas estendem as funcionalidades

RStudio

RStudio: Visão Geral

RStudio: Criando um Script

RStudio: Help

RStudio: Help

Introdução ao R

Aula 1: Hands-on

  • Descompactar os arquivos e organizá-los em pastas apropriadas.
  • Vamos conhecer os arquivos.

Referências

HARKNESS, T. The history of the data economy: Part I: The birth of customer insight. Significance, v. 18, n. 2, p. 12–15, a2021.
HARKNESS, T. The history of the data economy: Part II: Analytics arrives. Significance, v. 18, n. 4, p. 16–19, b2021.
HARKNESS, T. The history of the data economy: Part III: The new kings and queens of data. Significance, v. 18, n. 5, p. 16–19, c2021.
HARKNESS, T. The history of the data economy: Part IV: The future. Significance, v. 18, n. 6, p. 12–15, d2021.
WICKHAM, M. G., Hadley; ÇETINKAYA-RUNDEL. R for data science: import, tidy, transform, visualize, and model data. 2nd. ed. ed. [s.l.] O’Reilly Media, Inc, 2023.